(3). 게시물 분석 영역
제목, 본문, 댓글(여러 댓글일 경우, 하나로 합침)
대부분의 분석에서 글쓴이의 목적과 의도, 주요 관심사를 명확히 하기 위해 댓글을 제외하고 분석함.(일부 분석 예외)
(4). 분석 방법
1) WORD RANKING
① 코퍼스, TDM (Term Document Matrix)변환
② 단순랭킹 + TF-IDF 지수
TF-IDF 지수 : '키워드의 빈도'에 '문서 빈도의 역수'를 곱하여, 의미 없이 많은 문서에 등장하는 워드의 가중치를 낮게 함.
2) 동시출현단어 분석 (co-occurence network anlysis)
3) 연관규칙 분석(장바구니 분석) : Apriori 알고리즘
4) 토픽분석 : LDA(선형판별분석)
(5). 분석에서 검색어 및 연관어 제외
1) 초통영 : 윤선생, 초통영, 영어, 초등영어, 공부, 학습外
2) 초등영어,파닉스 : 영어, 초등영어, 공부, 학습外
3) 초등영어,학습지 : 학습지, 영어, 초등영어, 공부, 학습外